Preoperative 데이터 설명

Postoperative 데이터 설명

Preoperative 데이터

이상한 Column 제거

Postoperative 데이터

1. Grade columns

2. Stage columns

3. Postoperative에서의 Group 나누기.

암수술전에 시행한 자궁내막조직검사 및 MRI에 따라
Group 1 (no myometrial invasion + grade 1),
Group 2 (no myometrial invasion + grade 2),
Group 3 (Myometrial invasion<50% + grade 1), 
Group 4 (Myometrial invasion<50% + grade 2)로
분류한 후 각각의 group에 속한 환자들이 암수술 후에도 여전히 같은 group에 있을 가능성을 평가함(accuracy, NPV, PPV, sensitivity, specificity, AUC, Kappa) => total population에서도 시행함

즉,

Group A: 68
Group B: 16
Group C: 102
Group D: 42
전체 환자 수 : 252명, Group A~D: 228, 나머지: 24(Grade='others' 이거나 침습깊이가 More than 50%일 때)

4. Preoperative의 침습 깊이와 Postoperative의 침습깊이 예측 비교

Preoperative -> Postoperative

5. Preoperative의 Grade와 Postoperative의 Grade 비교

Preoperative -> Postoperative

데이터 전처리(분석)

종양 크기의 Dtypes를 float로 변환

범주형, 수치형 column 구분

1. Grade

Grade의 분포도 확인

heatmap

distribution plot of CA125 for Grade

distribution plot of Tumor size for Grade

수치형, 범주형 countplot

violin을 이용한 label_Grade, Age, Menopause에 따른 관계 확인

violin을 이용한 label_Grade, CA125, Menopause에 따른 관계 확인

violin을 이용한 label_Grade, Tumor size, Menopause에 따른 관계 확인

결측치 확인

데이터 전처리

Grade I을 0으로, Grade II을 1로 대체

oversampling 기법 적용

Model 1: XGBoost

SHAP

force plots.

-Red arrows는 예측값을 더 높게하는 변수들의 여향도를 설명 (SHAP values)
-Blue arrows는 반대로 지금 예측 값을 더 낮게하는 변수들의 영향도를 나타냄.

각각의 arrows의 크기는 변수의 영향도에 대한 양을 나타낸다.

여기서 base value는 train set에서의 모델 평균 예측을 마킹한 것.
output value는 모델의 예측이다. 가장 큰 영향을 준 변의 값은 아래에 표시가 된다.
결국 forceplot은 예측에 대한 효과적인 요약을 제공한다.

개별적으로 확인.

target = 0 , idx = 4 (idx = 4번째이고 Grade I을 예측하는데 미치는 영향 확인)

target = 1 , idx = 4 (idx = 4번째이고 Grade II을 예측하는데 미치는 영향 확인)

Grade II에 미치는 영향들 확인.

target = 2 , idx = 4 (idx = 4번째이고 others을 예측하는데 미치는 영향 확인)

로컬 막대 플롯 (Grade I 예측하는 것)

SHAP Waterfall Plot

특정 데이터가 예측된 근거를 보여주는 plot이다. 각 Feature들의 공헌도와 Shapley Value를 직관적으로 표현, 긍정적 요인은 빨간색, 부정적 요인은 파란색이다.

전역 막대 플롯 (Grade I 예측하는 것)

Summary

전체 Features들에 대해 Shapley Value가 어떠한 분포를 미치는지 시각화

또한, X축 0을 기준으로 음의 영역은 부정적 요인, 양의 영역은 긍정적 요인을 뜻함.

결론적으로, 양의 영역에 파란색 점이 찍혀있다면, Feature가 적을 수록 긍정적으로 작용한다는 것을 의미.

2. Grade II

Summary

전체 Features들에 대해 Shapley Value가 어떠한 분포를 미치는지 시각화

또한, X축 0을 기준으로 음의 영역은 부정적 요인, 양의 영역은 긍정적 요인을 뜻함.

결론적으로, 양의 영역에 파란색 점이 찍혀있다면, Feature가 적을 수록 긍정적으로 작용한다는 것을 의미.

others

Summary

전체 Features들에 대해 Shapley Value가 어떠한 분포를 미치는지 시각화

또한, X축 0을 기준으로 음의 영역은 부정적 요인, 양의 영역은 긍정적 요인을 뜻함.

결론적으로, 양의 영역에 파란색 점이 찍혀있다면, Feature가 적을 수록 긍정적으로 작용한다는 것을 의미.

Model 2 : Cat boost